1. Cel projektu

Śledzie są jednym ze składników wielu świątecznych dań na stołach polskich rodzin. Niestety w ostatnich latach badacze zauważyli niepokojący trend karłowacenia śledzia oceanicznego. Celem projektu jest analiza danych o połowach śledzi oceanicznych wyławianych w Europie i wskazanie głównej przyczyny zjawiska ich karłowacenia.

2. Podsumowanie analizy

Analiza danych dowiodła, że największym wpływem na występowanie zjawiska karłowacenia śledzi ma temperatura przy powierzchni wody. W trakcie jej dokonywania okazało się, że część rekordów była pusta. Aby poradzić sobie z tym problemem postanowiono puste wpisy zastąpić średnimi wartościami dla kolumn im odpowiadającym. Kolejnym problemem było to, że wpisy nie posiadały szczegółowej informacji na temat daty dokonania połowu. Z tego powodu ciężko było przygotować wykres rozmiaru śledzia na przestrzeni lat. Przyjęto, że wpisy dotyczące obserwacji są ułożone chronologicznie o na podstawie tego założenia przygotowano odpowiedni wykres.

3. Wykorzystane narzędzia

W ramach projektu wykorzystano następujące pakiety:

  • ggplot2
  • dplyr
  • knitr
  • tidyr
  • corrplot
  • plotly
  • caret

4. Informacje o zbiorze danych

W zbiorze danych występują poniższe kolumny:

  • length: długość złowionego śledzia [cm];
  • cfin1: dostępność planktonu [zagęszczenie Calanus finmarchicus gat. 1];
  • cfin2: dostępność planktonu [zagęszczenie Calanus finmarchicus gat. 2];
  • chel1: dostępność planktonu [zagęszczenie Calanus helgolandicus gat. 1];
  • chel2: dostępność planktonu [zagęszczenie Calanus helgolandicus gat. 2];
  • lcop1: dostępność planktonu [zagęszczenie widłonogów gat. 1];
  • lcop2: dostępność planktonu [zagęszczenie widłonogów gat. 2];
  • fbar: natężenie połowów w regionie [ułamek pozostawionego narybku];
  • recr: roczny narybek [liczba śledzi];
  • cumf: łączne roczne natężenie połowów w regionie [ułamek pozostawionego narybku];
  • totaln: łączna liczba ryb złowionych w ramach połowu [liczba śledzi];
  • sst: temperatura przy powierzchni wody [°C];
  • sal: poziom zasolenia wody [Knudsen ppt];
  • xmonth: miesiąc połowu [numer miesiąca];
  • nao: oscylacja północnoatlantycka [mb].

Zbiór składa się z:

  • 52582 wierszy i 16 kolumn.

4.1. Podsumowanie statystyk wartości atrybutów danych nieoczyszczonych

Poniżej znajduje się podsumowanie metryk wczytanego zbioru danych.

X length cfin1 cfin2 chel1 chel2 lcop1 lcop2 fbar recr cumf totaln sst sal xmonth nao
Min. : 0 Min. :19.0 Length:52582 Length:52582 Length:52582 Length:52582 Length:52582 Length:52582 Min. :0.0680 Min. : 140515 Min. :0.06833 Min. : 144137 Length:52582 Min. :35.40 Min. : 1.000 Min. :-4.89000
1st Qu.:13145 1st Qu.:24.0 Class :character Class :character Class :character Class :character Class :character Class :character 1st Qu.:0.2270 1st Qu.: 360061 1st Qu.:0.14809 1st Qu.: 306068 Class :character 1st Qu.:35.51 1st Qu.: 5.000 1st Qu.:-1.89000
Median :26291 Median :25.5 Mode :character Mode :character Mode :character Mode :character Mode :character Mode :character Median :0.3320 Median : 421391 Median :0.23191 Median : 539558 Mode :character Median :35.51 Median : 8.000 Median : 0.20000
Mean :26291 Mean :25.3 NA NA NA NA NA NA Mean :0.3304 Mean : 520367 Mean :0.22981 Mean : 514973 NA Mean :35.51 Mean : 7.258 Mean :-0.09236
3rd Qu.:39436 3rd Qu.:26.5 NA NA NA NA NA NA 3rd Qu.:0.4560 3rd Qu.: 724151 3rd Qu.:0.29803 3rd Qu.: 730351 NA 3rd Qu.:35.52 3rd Qu.: 9.000 3rd Qu.: 1.63000
Max. :52581 Max. :32.5 NA NA NA NA NA NA Max. :0.8490 Max. :1565890 Max. :0.39801 Max. :1015595 NA Max. :35.61 Max. :12.000 Max. : 5.08000

Jak już wspomniano wcześniej część rekordów w zbiorze danych miało wartości puste. Z tego powodu zastąpiono je wartościami średnimi dla kolumn, w których one występują. W ten sposób “oczyszczono” zbiór danych. Ponadto jako, że kolumna X jest indeksem pomiaru postanowiono ją w pewnych przypadkach (dla sekcji zajmującej się regresorem oraz korelacji) usunąć. Poniżej podsuumowanie oczyszczonego zbioru danych.

4.2. Podsumowanie statystyk atrybutów oczyszczonego zbioru danych

Poniżej znajduje się podsumowanie metryk oczyszczonego zbioru danych.

length cfin1 cfin2 chel1 chel2 lcop1 lcop2 fbar recr cumf totaln sst sal xmonth nao
Min. :19.0 Min. : 0.0000 Min. : 0.0000 Min. : 0.000 Min. : 5.238 Min. : 0.3074 Min. : 7.849 Min. :0.0680 Min. : 140515 Min. :0.06833 Min. : 144137 Min. :12.77 Min. :35.40 Min. : 1.000 Min. :-4.89000
1st Qu.:24.0 1st Qu.: 0.0000 1st Qu.: 0.2778 1st Qu.: 2.469 1st Qu.:13.589 1st Qu.: 2.5479 1st Qu.:17.808 1st Qu.:0.2270 1st Qu.: 360061 1st Qu.:0.14809 1st Qu.: 306068 1st Qu.:13.63 1st Qu.:35.51 1st Qu.: 5.000 1st Qu.:-1.89000
Median :25.5 Median : 0.1333 Median : 0.7012 Median : 6.083 Median :21.435 Median : 7.1229 Median :25.338 Median :0.3320 Median : 421391 Median :0.23191 Median : 539558 Median :13.86 Median :35.51 Median : 8.000 Median : 0.20000
Mean :25.3 Mean : 0.4458 Mean : 2.0248 Mean :10.006 Mean :21.221 Mean : 12.8108 Mean :28.419 Mean :0.3304 Mean : 520367 Mean :0.22981 Mean : 514973 Mean :13.87 Mean :35.51 Mean : 7.258 Mean :-0.09236
3rd Qu.:26.5 3rd Qu.: 0.3603 3rd Qu.: 1.9973 3rd Qu.:11.500 3rd Qu.:27.193 3rd Qu.: 21.2315 3rd Qu.:37.232 3rd Qu.:0.4560 3rd Qu.: 724151 3rd Qu.:0.29803 3rd Qu.: 730351 3rd Qu.:14.16 3rd Qu.:35.52 3rd Qu.: 9.000 3rd Qu.: 1.63000
Max. :32.5 Max. :37.6667 Max. :19.3958 Max. :75.000 Max. :57.706 Max. :115.5833 Max. :68.736 Max. :0.8490 Max. :1565890 Max. :0.39801 Max. :1015595 Max. :14.73 Max. :35.61 Max. :12.000 Max. : 5.08000

4.3. Przykladowe wiersze ze zbioru danych

Poniżej znajduje się przykładowe wartości z oczyszczonego zbioru danych.

X length cfin1 cfin2 chel1 chel2 lcop1 lcop2 fbar recr cumf totaln sst sal xmonth nao
0 23.0 0.02778 0.27785 2.46875 21.22108 2.54787 26.35881 0.356 482831 0.3059879 267380.8 14.30693 35.51234 7 2.8
1 22.5 0.02778 0.27785 2.46875 21.43548 2.54787 26.35881 0.356 482831 0.3059879 267380.8 14.30693 35.51234 7 2.8
2 25.0 0.02778 0.27785 2.46875 21.43548 2.54787 26.35881 0.356 482831 0.3059879 267380.8 14.30693 35.51234 7 2.8
3 25.5 0.02778 0.27785 2.46875 21.43548 2.54787 26.35881 0.356 482831 0.3059879 267380.8 14.30693 35.51234 7 2.8
4 24.0 0.02778 0.27785 2.46875 21.43548 2.54787 26.35881 0.356 482831 0.3059879 267380.8 14.30693 35.51234 7 2.8
5 22.0 0.02778 0.27785 2.46875 21.43548 2.54787 28.41883 0.356 482831 0.3059879 267380.8 14.30693 35.51234 7 2.8

5. Analiza wartości atrybutów

Poniżej przedstawiono analizę poszczególnych atrybutów. Dla każdego z nich dodano wizualizację jak dany atrybut ma się do długości złowionych śledzi (kolor słupków). Na podstawie metryk zbioru danych ustalono zakres osi X dla wykresów.

Dostępność planktonu [zagęszczenie Calanus finmarchicus gat. 1]

Dostępność planktonu [zagęszczenie Calanus finmarchicus gat. 2]

Dostępność planktonu [zagęszczenie Calanus helgolandicus gat. 1]

Dostępność planktonu [zagęszczenie Calanus helgolandicus gat. 2]

Dostępność planktonu [zagęszczenie widłonogów gat. 1]

Dostępność planktonu [zagęszczenie widłonogów gat. 2]

Natężenie połowów w regionie [ułamek pozostawionego narybku]

Roczny narybek [liczba śledzi]

Łączne roczne natężenie połowów w regionie [ułamek pozostawionego narybku]

Łączna liczba ryb złowionych w ramach połowu [liczba śledzi]

Temperatura przy powierzchni wody [°C]

Poziom zasolenia wody [Knudsen ppt]

Miesiąc połowu [numer miesiąca]

Oscylacja północnoatlantycka [mb]

6. Korelacja między zmiennymi

Poniżej przedstawiono korelację między zmiennymi w zbiorze danych wraz z jej graficzną reprezentacją.

length cfin1 cfin2 chel1 chel2 lcop1 lcop2 fbar recr cumf totaln sst sal xmonth nao
length 1.0000000 0.0809306 0.0960644 0.2167694 -0.0134789 0.2317917 0.0484887 0.2545137 -0.0084518 0.0083726 0.0966324 -0.4450675 0.0343124 0.0106780 -0.2583069
cfin1 0.0809306 1.0000000 0.1474508 0.0904867 0.1954949 0.1153156 0.2018018 -0.0641491 0.1150096 -0.0481405 0.1274079 0.0098495 0.1284867 0.0087074 0.0060246
cfin2 0.0960644 0.1474508 1.0000000 -0.0028628 0.2982669 -0.0387810 0.6347418 0.1518722 -0.0989033 0.3328846 -0.2141238 -0.2303343 -0.0807426 0.0144411 -0.0067958
chel1 0.2167694 0.0904867 -0.0028628 1.0000000 0.2780614 0.9286525 0.2405469 0.1573302 -0.0480795 0.0657501 0.1644233 -0.2089523 -0.1453538 0.0456571 -0.4992272
chel2 -0.0134789 0.1954949 0.2982669 0.2780614 1.0000000 0.1697867 0.8592379 0.0253927 0.0013663 0.2582306 -0.3699460 0.0079215 -0.2190496 0.0707715 -0.0586906
lcop1 0.2317917 0.1153156 -0.0387810 0.9286525 0.1697867 1.0000000 0.1450100 0.0936828 0.0031346 -0.0123916 0.2623450 -0.2558405 -0.0982585 0.0312794 -0.5424752
lcop2 0.0484887 0.2018018 0.6347418 0.2405469 0.8592379 0.1450100 1.0000000 0.0512470 -0.0010732 0.2874074 -0.2995069 -0.1168336 -0.1826080 0.0635976 -0.0436974
fbar 0.2545137 -0.0641491 0.1518722 0.1573302 0.0253927 0.0936828 0.0512470 1.0000000 -0.2374407 0.8165530 -0.5075128 -0.1751445 0.0422052 0.0072642 0.0653309
recr -0.0084518 0.1150096 -0.0989033 -0.0480795 0.0013663 0.0031346 -0.0010732 -0.2374407 1.0000000 -0.2597449 0.3715324 -0.1967584 0.2777045 0.0190695 0.0918079
cumf 0.0083726 -0.0481405 0.3328846 0.0657501 0.2582306 -0.0123916 0.2874074 0.8165530 -0.2597449 1.0000000 -0.7077921 0.0300699 -0.1005671 0.0347028 0.2255328
totaln 0.0966324 0.1274079 -0.2141238 0.1644233 -0.3699460 0.2623450 -0.2995069 -0.5075128 0.3715324 -0.7077921 1.0000000 -0.2829433 0.1492770 -0.0282281 -0.3893286
sst -0.4450675 0.0098495 -0.2303343 -0.2089523 0.0079215 -0.2558405 -0.1168336 -0.1751445 -0.1967584 0.0300699 -0.2829433 1.0000000 0.0099969 -0.0087612 0.5045328
sal 0.0343124 0.1284867 -0.0807426 -0.1453538 -0.2190496 -0.0982585 -0.1826080 0.0422052 0.2777045 -0.1005671 0.1492770 0.0099969 1.0000000 -0.0240495 0.1252016
xmonth 0.0106780 0.0087074 0.0144411 0.0456571 0.0707715 0.0312794 0.0635976 0.0072642 0.0190695 0.0347028 -0.0282281 -0.0087612 -0.0240495 1.0000000 -0.0034476
nao -0.2583069 0.0060246 -0.0067958 -0.4992272 -0.0586906 -0.5424752 -0.0436974 0.0653309 0.0918079 0.2255328 -0.3893286 0.5045328 0.1252016 -0.0034476 1.0000000
length 1.0000000
cfin1 0.0809306
cfin2 0.0960644
chel1 0.2167694
chel2 -0.0134789
lcop1 0.2317917
lcop2 0.0484887
fbar 0.2545137
recr -0.0084518
cumf 0.0083726
totaln 0.0966324
sst -0.4450675
sal 0.0343124
xmonth 0.0106780
nao -0.2583069

Po analizie korelacji zdecydowano, że największy wpływ na rozmiar śledzia ma temperatura wody przy powierzchni wody.

7. Zmiana rozmiaru śledzi w czasie

Długość śledzia w kolejnych pomiarach.

Do stworzenia powyższonego wykresu stworzono wartość porządkową X (wskazująca na numer obserwacji) i odpowiadającą jej długość śledzia.

8. Regresor przewidujący rozmiar śledzia

Do stworzenia regresora przewidującego rozmiar śledzia wykorzystano algorytmy KNN z użyciem Repeated Cross Validation oraz Random Forest.

8.1. Podsumowanie danych treningowych

length cfin1 cfin2 chel1 chel2 lcop1 lcop2 fbar recr cumf totaln sst sal xmonth nao
Min. :19.00 Min. : 0.0000 Min. : 0.0000 Min. : 0.000 Min. : 5.238 Min. : 0.3074 Min. : 7.849 Min. :0.0680 Min. : 140515 Min. :0.06833 Min. : 144137 Min. :12.77 Min. :35.40 Min. : 1.000 Min. :-4.89000
1st Qu.:24.00 1st Qu.: 0.0000 1st Qu.: 0.2778 1st Qu.: 2.469 1st Qu.:13.589 1st Qu.: 2.5479 1st Qu.:17.808 1st Qu.:0.2270 1st Qu.: 360061 1st Qu.:0.14809 1st Qu.: 306068 1st Qu.:13.63 1st Qu.:35.51 1st Qu.: 5.000 1st Qu.:-1.89000
Median :25.50 Median : 0.1333 Median : 0.7012 Median : 6.083 Median :21.435 Median : 7.1229 Median :25.338 Median :0.3320 Median : 421391 Median :0.23191 Median : 539558 Median :13.86 Median :35.51 Median : 8.000 Median : 0.20000
Mean :25.31 Mean : 0.4444 Mean : 2.0294 Mean : 9.993 Mean :21.209 Mean : 12.7914 Mean :28.432 Mean :0.3309 Mean : 520415 Mean :0.23027 Mean : 514921 Mean :13.87 Mean :35.51 Mean : 7.238 Mean :-0.08425
3rd Qu.:26.50 3rd Qu.: 0.3603 3rd Qu.: 1.9973 3rd Qu.:11.500 3rd Qu.:27.193 3rd Qu.: 21.2315 3rd Qu.:37.232 3rd Qu.:0.4650 3rd Qu.: 724151 3rd Qu.:0.29803 3rd Qu.: 730351 3rd Qu.:14.16 3rd Qu.:35.52 3rd Qu.: 9.000 3rd Qu.: 1.70000
Max. :32.50 Max. :37.6667 Max. :19.3958 Max. :75.000 Max. :57.706 Max. :115.5833 Max. :68.736 Max. :0.8490 Max. :1565890 Max. :0.39801 Max. :1015595 Max. :14.73 Max. :35.61 Max. :12.000 Max. : 5.08000

8.2. Podsumowanie danych testowych

length cfin1 cfin2 chel1 chel2 lcop1 lcop2 fbar recr cumf totaln sst sal xmonth nao
Min. :19.0 Min. :0.0000 Min. : 0.0000 Min. : 0.000 Min. : 5.238 Min. : 0.3074 Min. : 7.849 Min. :0.0680 Min. : 140515 Min. :0.06833 Min. : 144137 Min. :12.77 Min. :35.40 Min. : 1.000 Min. :-4.8900
1st Qu.:24.0 1st Qu.:0.0000 1st Qu.: 0.2778 1st Qu.: 2.469 1st Qu.:13.589 1st Qu.: 2.5479 1st Qu.:17.808 1st Qu.:0.2010 1st Qu.: 360061 1st Qu.:0.14809 1st Qu.: 306068 1st Qu.:13.60 1st Qu.:35.51 1st Qu.: 6.000 1st Qu.:-1.9000
Median :25.5 Median :0.1333 Median : 0.7012 Median : 6.387 Median :21.435 Median : 7.1229 Median :25.338 Median :0.3300 Median : 421391 Median :0.23191 Median : 539558 Median :13.86 Median :35.51 Median : 8.000 Median : 0.2000
Mean :25.3 Mean :0.4500 Mean : 2.0111 Mean :10.043 Mean :21.259 Mean :12.8691 Mean :28.378 Mean :0.3286 Mean : 520223 Mean :0.22842 Mean : 515130 Mean :13.88 Mean :35.51 Mean : 7.315 Mean :-0.1167
3rd Qu.:26.5 3rd Qu.:0.3333 3rd Qu.: 1.9973 3rd Qu.:11.500 3rd Qu.:27.193 3rd Qu.:21.2315 3rd Qu.:37.232 3rd Qu.:0.4560 3rd Qu.: 724151 3rd Qu.:0.29518 3rd Qu.: 730351 3rd Qu.:14.16 3rd Qu.:35.52 3rd Qu.: 9.000 3rd Qu.: 1.6300
Max. :31.5 Max. :4.8333 Max. :19.3958 Max. :75.000 Max. :57.706 Max. :75.0000 Max. :68.736 Max. :0.8490 Max. :1380210 Max. :0.39801 Max. :1015595 Max. :14.73 Max. :35.61 Max. :12.000 Max. : 5.0800

8.3. KNN

8.3.1. Efekt treningu regresora

## k-Nearest Neighbors 
## 
## 39438 samples
##    14 predictor
## 
## Pre-processing: centered (14), scaled (14) 
## Resampling: Cross-Validated (3 fold, repeated 3 times) 
## Summary of sample sizes: 26292, 26292, 26292, 26292, 26292, 26292, ... 
## Resampling results across tuning parameters:
## 
##   k   RMSE      Rsquared   MAE      
##    5  1.156272  0.5111867  0.9111354
##    7  1.154223  0.5127439  0.9094668
##    9  1.152915  0.5137140  0.9085979
##   11  1.152830  0.5137220  0.9083246
##   13  1.152966  0.5135747  0.9084672
##   15  1.153379  0.5131957  0.9088286
##   17  1.153665  0.5129461  0.9090859
##   19  1.153757  0.5128546  0.9092108
##   21  1.154055  0.5125932  0.9095286
##   23  1.154331  0.5123416  0.9097773
##   25  1.154660  0.5120468  0.9100509
##   27  1.155126  0.5116541  0.9103673
##   29  1.155350  0.5114618  0.9107191
##   31  1.155474  0.5113439  0.9109214
##   33  1.155506  0.5113150  0.9109642
##   35  1.155676  0.5111829  0.9111564
##   37  1.156054  0.5108784  0.9113821
##   39  1.156331  0.5106399  0.9116572
##   41  1.156337  0.5106289  0.9116569
##   43  1.156970  0.5100947  0.9122532
## 
## RMSE was used to select the optimal model using the smallest value.
## The final value used for the model was k = 11.

8.3.2. Predykcja regresora

## [1] 23.28723 23.28723 23.41071 23.41071 23.41071 23.41071

8.4. Random Forest

8.4.1. Efekt treningu regresora

## Random Forest 
## 
## 39438 samples
##    14 predictor
## 
## Pre-processing: centered (14), scaled (14) 
## Resampling: Cross-Validated (3 fold, repeated 3 times) 
## Summary of sample sizes: 26292, 26292, 26292, 26292, 26292, 26292, ... 
## Resampling results across tuning parameters:
## 
##   mtry  RMSE      Rsquared   MAE      
##    2    1.164261  0.5037663  0.9210838
##    8    1.159644  0.5084627  0.9136142
##   14    1.167483  0.5025544  0.9192388
## 
## RMSE was used to select the optimal model using the smallest value.
## The final value used for the model was mtry = 8.

8.4.2. Predykcja regresora

##        2        5       13       15       17       20 
## 23.28128 23.28128 23.33129 23.33129 23.33129 23.33129

9. Analiza ważności atrybutów

Najważniejszym atrybutem okazała się temperatura przy powierzchni wody. Oznacza to, że to właśnie ona ma największy wpływ na długość śledzi.

9.1. KNN

obs pred
Min. :19.0 Min. :22.31
1st Qu.:24.0 1st Qu.:24.53
Median :25.5 Median :25.36
Mean :25.3 Mean :25.31
3rd Qu.:26.5 3rd Qu.:26.21
Max. :31.5 Max. :28.13

9.2. Random Forest

obs pred
Min. :19.0 Min. :21.91
1st Qu.:24.0 1st Qu.:24.53
Median :25.5 Median :25.37
Mean :25.3 Mean :25.30
3rd Qu.:26.5 3rd Qu.:26.21
Max. :31.5 Max. :28.81